1 - Dados organizados

CE II: Organização, visualização e comunicação de dados

Carolina Musso

DEPAT/IPE-DF

Luiz Oliveira
Rafael de Acypreste

Estrutura do curso

  1. Dados organizados - oficina 1

  2. Visualização de dados - oficinas 2, 3 e 4

  3. Amostragem aplicada à linguagem R - oficinas 5 e 6

  4. Automatização de relatórios de pesquisa (Github) - oficinas 7, 8 e 9

Oficina 1 - Dados organizados

  1. Contextualização

  2. O que são dados organizados?

  3. As três regras dos dados organizados

  4. Exemplos de dados (des)organizados

  5. Exercícios

  6. Considerações finais

Contextualização

  • Em ciência de dados, mais da metade do tempo de trabalho é gasto com a limpeza e preparação dos dados;

Dados desorganizados

“Famílias felizes são todas iguais; cada família infeliz é infeliz à sua própria maneira.”
— Leon Tolstoy.

“Conjuntos de dados organizados são todos iguais, mas cada conjunto de dados desorganizado é desorganizado à sua própria maneira.”
— Hadley Wickham

Dados desorganizados

  • Diferença de dados desestruturados
    • Texto livre
    • Imagens, áudio e vídeo
  • Dados organizados: Dados tabulares em um formato ideal para leitura da máquina.

O que são dados organizados?

Tabela 1

# A tibble: 6 × 4
  country      year  cases population
  <chr>       <dbl>  <dbl>      <dbl>
1 Afghanistan  1999    745   19987071
2 Afghanistan  2000   2666   20595360
3 Brazil       1999  37737  172006362
4 Brazil       2000  80488  174504898
5 China        1999 212258 1272915272
6 China        2000 213766 1280428583

Tabela 2

# A tibble: 12 × 4
   country      year type            count
   <chr>       <dbl> <chr>           <dbl>
 1 Afghanistan  1999 cases             745
 2 Afghanistan  1999 population   19987071
 3 Afghanistan  2000 cases            2666
 4 Afghanistan  2000 population   20595360
 5 Brazil       1999 cases           37737
 6 Brazil       1999 population  172006362
 7 Brazil       2000 cases           80488
 8 Brazil       2000 population  174504898
 9 China        1999 cases          212258
10 China        1999 population 1272915272
11 China        2000 cases          213766
12 China        2000 population 1280428583

Tabela 3

# A tibble: 6 × 3
  country      year rate             
  <chr>       <dbl> <chr>            
1 Afghanistan  1999 745/19987071     
2 Afghanistan  2000 2666/20595360    
3 Brazil       1999 37737/172006362  
4 Brazil       2000 80488/174504898  
5 China        1999 212258/1272915272
6 China        2000 213766/1280428583

O que são dados organizados?

  • Três regras dos dados organizados:
    1. Cada variável forma uma coluna
    2. Cada observação forma uma linha
    3. Cada tipo de unidade observacional forma uma tabela

Dados organizados

O que (pode ser) bom para humano X bom para máquina

Desorganizados 1

Desorganizados 2

Dados organizados

table1 |>
  mutate(rate = cases / population * 10000)
# A tibble: 6 × 5
  country      year  cases population  rate
  <chr>       <dbl>  <dbl>      <dbl> <dbl>
1 Afghanistan  1999    745   19987071 0.373
2 Afghanistan  2000   2666   20595360 1.29 
3 Brazil       1999  37737  172006362 2.19 
4 Brazil       2000  80488  174504898 4.61 
5 China        1999 212258 1272915272 1.67 
6 China        2000 213766 1280428583 1.67 
table1 |> 
  group_by(year) |> 
  summarize(total_cases = sum(cases))
# A tibble: 2 × 2
   year total_cases
  <dbl>       <dbl>
1  1999      250740
2  2000      296920
ggplot(table1, aes(x = year, y = cases)) +
  geom_line(aes(group = country), color = "grey50") +
  geom_point(aes(color = country, shape = country)) +
  scale_x_continuous(breaks = c(1999, 2000))

tidyverse

Exercício (?)

O que você teria que fazer para transformar os dados desorganizados abaixo em dados organizados?

table2
# A tibble: 12 × 4
   country      year type            count
   <chr>       <dbl> <chr>           <dbl>
 1 Afghanistan  1999 cases             745
 2 Afghanistan  1999 population   19987071
 3 Afghanistan  2000 cases            2666
 4 Afghanistan  2000 population   20595360
 5 Brazil       1999 cases           37737
 6 Brazil       1999 population  172006362
 7 Brazil       2000 cases           80488
 8 Brazil       2000 population  174504898
 9 China        1999 cases          212258
10 China        1999 population 1272915272
11 China        2000 cases          213766
12 China        2000 population 1280428583

Dados longo

Considerações finais

  • Dados organizados são essenciais para análises e visualizações eficientes e reprodutíveis

  • Dados organizados para humanos nem sempre são organizados para máquinas

  • De modo geral tidy data

    • Uma variável por coluna
    • Uma observação por linha
    • Um valor por célula